Ce document présente l’analyse statistique, économétrique et textuelle d’un fichier issu du site Inside Airbnb. Cette plateforme indépendante et à but non lucratif a été lancée en 2016 par l’activiste américain Murray Cox afin d’explorer l’utilisation réelle d’Airbnb dans les villes du monde entier et de fournir des filtres et des mesures clés pour analyser comment Airbnb concurrence et déstabilise le marché du logement résidentiel local dans le tourisme mondial.
Les données du site Inside Airbnb proviennent d’informations publiquement disponibles sur le site Airbnb. Ces données ont été analysées, nettoyées, le cas échéant agrégées et sont librement accessibles pour faciliter la discussion publique.
Presque toutes les plus grandes et les plus touristiques des villes du monde sont répertoriées dans Inside Airbnb, où il est possible de récupérer les données brutes (en format csv) sur tout un ensemble d’informations comme le type de logement loué par hôte, le type bien immobilier, etc (voir le détail de ce qu’ils appellent leur Data Dictionary).
Dans cette étude, le fichier analysé est celui du Pays basque (données de Juin 2023), ce choix se fonde sur quelques interrogations :
Dans le but de répondre aux interrogations précédentes, cette étude a pour but de mobiliser les techniques d’analyse statistique multiple, exploratoire et textuelle des modules 4 &5. Nous espérons ainsi nous faire une idée du profil des offres de locations et des hôtes qui caractérisent le pays basque chez AirBNB.
| Questions sur les offres | Questions sur les hôtes |
|---|---|
| Quel est le type de chambre le plus courant ? | Quels sont les 50 premiers hébergeurs en fonction de leur chiffre d’affaires ? |
| Quel est le top et le bottom 10 des types de propriété en fonction du prix moyen ? | Y a-t-il une différence dans le score des évaluations entre les super-hébergeurs et les hébergeurs normaux ? |
| Quel est le top et le bottom 10 des types de propriété sur la base de la note d’évaluation ? | Y a-t-il une différence dans le taux de réponse entre un superhost et un host normal ? |
| Quels sont les équipements les plus courants ? | Comment le nombre d’hôtes rejoint-il Airbnb au fil du temps ? |
| Quelle répartition géographique des locations ? | Quelle répartition géographique des hôtes ? |
Le jeu de données étudié regroupe 13648 annonces (toutes uniques) correspondant au Pays basque, postés par 9646 hôtes distincts entre mars 2023 et juin 2023 (le dernier listing de septembre 2023 étant sorti récemment). 142 villes sont citées, où seulement 4 villes représentent plus de 55% des offres (Biarritz, Anglet, Bayonne et Saint-Jean-de-Luz, cf. 3.1.3).
Le tableau comporte 76 variables, 46 sont quantitatives (dont 5 binaires), 24 sont qualitatives (dont 15 purement en texte libre), 6 correspondent à des dates.
Si la grande majorité des données provient du scrapping du site web d’Airbnb, certaines variables sont calculées comme les moyennes sur les types de score, les disponibilités ou le cumul des types de location par hôte (rappelons que le but de ce site est aussi de démontrer la gentrification touristique de certains quartiers dans les villes et débusquer les professionnels utilisant Airbnb à des fins mercantiles).
Plusieurs transformations ont été nécessaires pour préparer les données, notamment :
#suppression des colonnes inutiles dans l'analyse
PaysBasque_listings <- PaysBasque_listings %>%
dplyr::select(-id, -scrape_id, -last_scraped, -source, -host_thumbnail_url, -host_picture_url, -calendar_last_scraped, -license)
#Conversion de factor à numérique
# elimination des pourcentages
PaysBasque_listings$host_response_rate <- as.numeric(gsub("%", "", as.character(PaysBasque_listings$host_response_rate)))/100
PaysBasque_listings$host_acceptance_rate <- as.numeric(gsub("%", "", as.character(PaysBasque_listings$host_acceptance_rate)))/100
# lot de colonnes changé
PaysBasque_listings <- PaysBasque_listings %>%
mutate(across(c(latitude,longitude,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,reviews_per_month), as.numeric))
# changement des dates avec lubridate
PaysBasque_listings$host_since <- dmy(PaysBasque_listings$host_since)
PaysBasque_listings$host_since_year <- year(PaysBasque_listings$host_since)
PaysBasque_listings$first_review <- dmy(PaysBasque_listings$first_review)
PaysBasque_listings$last_review <- dmy(PaysBasque_listings$last_review)
# changer True/False en t/f
PaysBasque_listings$host_has_profile_pic <- as.factor(gsub("TRUE", "t", PaysBasque_listings$host_has_profile_pic))
PaysBasque_listings$host_has_profile_pic <- as.factor(gsub("FALSE", "f", PaysBasque_listings$host_has_profile_pic))
PaysBasque_listings$host_is_superhost <- as.factor(gsub("TRUE", "t", PaysBasque_listings$host_is_superhost))
PaysBasque_listings$host_is_superhost <- as.factor(gsub("FALSE", "f", PaysBasque_listings$host_is_superhost))
PaysBasque_listings$host_identity_verified <- as.factor(gsub("TRUE", "t", PaysBasque_listings$host_identity_verified))
PaysBasque_listings$host_identity_verified <- as.factor(gsub("FALSE", "f", PaysBasque_listings$host_identity_verified))
PaysBasque_listings$has_availability <- as.factor(gsub("TRUE", "t", PaysBasque_listings$has_availability))
PaysBasque_listings$has_availability <- as.factor(gsub("FALSE", "f", PaysBasque_listings$has_availability))
PaysBasque_listings$instant_bookable <- as.factor(gsub("TRUE", "t", PaysBasque_listings$instant_bookable))
PaysBasque_listings$instant_bookable <- as.factor(gsub("FALSE", "f", PaysBasque_listings$instant_bookable))
# changer les textes en factor
PaysBasque_listings <- PaysBasque_listings %>%
mutate(across(c("name", "host_name", "neighbourhood_group_cleansed", "neighbourhood_cleansed", "room_type", "property_type"), as.factor))
Nous présentons dans cette étude l’analyse effectuée sur le corpus choisi, avec en premier lieu, une première approche statistique des locations, de leurs hôtes et des prix pratiqués (chapitre 3). Nous développons dans une partie dédiée les analyses plus poussées sur les variables intéressantes retenues afin de définir des tendances de fond sur le corpus Airbnb. Notamment, cette partie propose une analyse Textmining des variables textuelles nous semblant importantes (chapitre 4).
Dans cette partie, nous analysons statistiquement les annonces du listing choisi, leurs hôtes ainsi que les prix, afin de définir si des profils types ressortent.
La carte ci-dessous présente toutes les annonces du corpus,
regroupées en grappes autour de grandes villes “mythiques” du Pays
basque, que l’on retrouve plus ou moins dans une variable dédiée
neighbourhood_group_cleansed.
Il est intéressant de voir que l’essentiel des offres est en front de mer. L’arrière pays quoique présentant des atouts indéniables pour des annonces de propriétés prestigieuses à louer, reste encore en retrait.
Ci-après, nous cherchons à en savoir plus sur quel sont les types de location et les types de biens immobiliers les plus couramment loués sur ce territoire en juin 2023.
Voici les premières statistiques sur le type de location
(room_type) préféré par les clients dans le Pays basque
:
A remarquer le nombre très infime de chambre d’hôtel, ce qui laisserait à penser que les professionnels n’utilisent pas ce réseau social, remarque infirmée par l’analyse des hôtes (cf. 3.2).
Les graphe ci-dessous présente les 15 principaux types de biens
immobiliers. Le type de propriété (property_type) est la
version plus granulaire et plus détaillée du type de location.
On retrouve l’écrasante majorité des locations de logements entiers (s’agissant de villas, d’appartements, de logements dans des copropriétés, qualifiés de condo). La queue du tableau fait apparaître les endroits insolites comme un yourte, une hûte, un château ou des bateaux.
Il est intéressant de voir quelles villes représentent en majorité ce territoire du Pays basque, pas vraiment un département, ni une région. Quand on se réfère à la page wikipédia du pays basque, on retrouve à quelques villes près, les villes présentes dans Airbnb. Avec principalement les villes du bord de l’océan, proposant pléthore de locations (nous verrons plus loin que ce ne sont pas celles qui sont les plus chères, cf 3.3.4).
La disponibilité des annonces Airbnb varie tout au long de l’année. Les hôtes peuvent configurer le calendrier de leurs annonces de manière à ce qu’elles ne soient disponibles que pendant un certain nombre de jours, ou bien les annonces peuvent être déjà réservées, ce qui limite leur disponibilité.
Il est intéressant de connaître le nombre d’annonces en fonction du nombre de jours pendant lesquels elles sont disponibles au cours d’une année.
La courbe ci-après présente la répartition des annonces en fonction des disponibilités proposées par les hôtes. Par exemple, seulement 238 annonces proposent une disponibilité de 365 jours, s’agissant d’ailleurs des offres les plus chères.
La moyenne des offres en location sont autour de 175 jours de disponibilité par an, ce qui est élevé. Le parc de maisons secondaires doit être particulièrement important sur ce territoire.
summary(PaysBasque_listings$availability_365)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 56.0 165.0 175.3 296.0 365.0
Il est interessant de creuser le pic que l’on constate des offres de logement sur 364 jours, comme le présente le tableau suivant, où l’on constate qu’il s’agit à plus de 80% de maisons indépendantes entièrement libres.
Nous abordons dans cette partie l’analyse plus détaillée des hôtes du corpus. Peut-on dresser un profil type, trouve-t’on des éléments saillants ?
Une première vue est de regrouper dans un même tableau les caractéristiques de ces hôtes :
| Characteristic | N = 9,745 |
|---|---|
| host_response_time, n (%) | |
| a few days or more | 196 (2.0%) |
| within a day | 1,188 (12%) |
| within a few hours | 2,187 (22%) |
| within an hour | 6,174 (63%) |
| host_response_rate, Median (IQR) | 1.00 (1.00, 1.00) |
| host_acceptance_rate, Median (IQR) | 0.97 (0.80, 1.00) |
| host_is_superhost, n (%) | |
| f | 7,286 (75%) |
| t | 2,459 (25%) |
| host_total_listings_count, Median (IQR) | 2 (1, 5) |
| host_identity_verified, n (%) | |
| f | 947 (9.7%) |
| t | 8,798 (90%) |
| instant_bookable, n (%) | |
| f | 7,020 (72%) |
| t | 2,725 (28%) |
25% sont répertoriés en tant que superhôtes (analysé plus loin),
notons que le 28% de la variable instant_bookable permet de
voir si le client peut booker l’annonce automatiquement, le ‘true’
indique qu’il peut, donc on aurait affaire à des professionnels.
Comme il y a plusieurs colonnes dédiées à la présentation des hôtes,
une première idée est de savoir d’où ils viennent et si ils habitent sur
le même territoire que leurs annonces. Le tableau ci-dessous présente
l’analyse du champ host_country, majoritairement, les hôtes
sont domiciliés en France (avec 31% de non réponse quand même, ce qui
n’est ps étonnant, vu que le listing cache aussi des professionnels
déguisant leur activité, cf. le point suivant).
Presque 40% habite dans les principales villes du pays basque (Biarritz, Anglet, Bayonne, Saint-Jean-de-Luz, Hendaye et Bidart), à l’exception de Paris, on trouve aussi des étrangers louant leur biens secondaires.
La répartition suit celle du nombre d’offres, ce qui laisse à penser que ce sont des locaux qui bénéficient du réseaux social pour se faire un complément de revenue (du moins pour ceux qui ont peu d’annonces à proposer). La répartition suivante nous permet de voir combien d’hôtes ont posté X annonces dans le listing.
table(PaysBasque_listings$calculated_host_listings_count)
##
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
## 8417 1580 603 288 280 150 56 24 45 60 88 12 26 42 60 80
## 17 18 19 20 21 22 23 24 25 27 28 29 31 32 34 35
## 17 36 57 40 63 22 69 48 25 27 28 29 31 32 68 35
## 36 40 41 43 44 50 58 59 106 114 137 150 162 170
## 36 40 41 43 44 50 58 59 106 114 137 150 162 170
73% des hôtes ont posté de une à deux annonces, ils représentent en grande majorité les hôtes types d’Airbnb, cherchant à se faire un complément de revenue en louant leur bien partiel ou entier.
Il est intéressant d’effectuer un tableau croisé dynamique sur le comptage des hôtes uniques dans tout le corpus, car cela révèle les hôtes qui mènent un véritable business. On retrouve d’ailleurs dans le classement des 50 premiers, des professionnels comme des agences immobilières ou des résidences de vacances.
Par exemple c’est le cas de Maeva qui est le nom de
l’hôte, derrière se cache Pierre &
Vacances, proposant des résidences de tourisme (au demeurant, la
ville de l’hôte se trouve à Agay sur la Côte d’Azur). Un autre fait
marquant est celui de l’agence de voyage basque Poplidays, qui n’a pas
renseigné à dessein le champ name (rajouté manuellement
pour l’analyse après une petite enquête) et dont les 3 comptes du corpus
ont été supprimés très récemment (alors que l’url du profil
fonctionnait il y a une dizaine de jours).
On peut penser que la mise en visualisation du nombre d’annonce par hôte proposé par le site activiste inside Aibnb aide Airbnb à faire le “ménage” dans son listing, du moins en est-il forcé., sous la pression des autorités ou des pouvoirs publics. La mise en lumière de cette statistique est riche en renseignement !
Airbnb distingue parmi les hôtes ce qui est qualifié de “superhost” (https://www.airbnb.fr/help/article/828) : il s’agit des hôtes expérimentés qui donnent l’exemple aux autres hôtes et font vivre des “expériences extraordinaires” à leurs invités.
Existe t’il une différence dans la distribution des notes d’évaluation pour les annonces appartenant à un super-hôte ou à un hôte normal ?
Le superhôte et l’hôte normal présentent plus ou moins le même pic de distribution, ce qui indique qu’en moyenne, il n’y a pas de différence significative en ce qui concerne les notes d’évaluation ou l’expérience globale. Effectivement, il est rare de trouver des évaluations en dessous de 3, tant dans ce corpus que généralement dans tout Airbnb, d’après d’autres analyses sur le sujet. Cependant, la distribution des superhôtes est plus fine que celle des hôtes normaux, ce qui indique que les superhôtes auraient tendance à obtenir des notes d’évaluation plus élevées. Nous essayons de creuser les raisons dans la partie suivante.
## `summarise()` has grouped output by 'neighbourhood_group_cleansed'. You can
## override using the `.groups` argument.
Cette visualisation est intéressante pour des spécialistes du tourisme, connaisant au mieux les spécialités de cette région et de leurs communes. Sans trop connaître la région, il est difficile de tirer des conclusions.
Avant tout, on peut voir que les prix ont une amplitude énorme des prix de 0 (donc soit un problème de scrapping de l’information, soit un manque sur l’annonce), et à 90 350 euros, pour ce cas particulier s’agissant d’une villa entière à louer à l’année dans la ville de Urrugne.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 71.0 100.0 215.4 172.0 90350.0
On peut remarquer que la distribution n’est pas régulière et est sûrement liée à la superposition de plusieurs distributions de prix du fait de types de logements différents, comme le montre le graphique suivant :
Nous avons affiné dans ce graphe les prix en éliminant les valeurs aberrantes (ou du moins non représentatives de l’ensemble), notamment les prix trop éloignés de la médiane.
La distribution change fortement en supprimant les quantiles inférieurs et supérieurs de 10% : le prix médian est inchangé, c’est la moyenne qui change de 100 euros. Pour cette raison, nous garderons la médiane des prix dans le reste de l’analyse pour réaliser nos tests.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 56.0 78.0 100.0 122.9 150.0 304.0
Nous avons produit le tableau dynamique ci-dessous en croisant
plusieurs variables pour faire ressortir des tendances par villes
principales (autrement dit les voisinages, ou neighborhood)
et par type de location, sur la base du prix médian.
Ce tableau nous permet de distinguer les particularités des villes touristiques du pays basque. On peut remarquer que les prix semblent corrélés positivement à l’aspect typique du lieu (notamment dans l’arrière pays).
Pour rappel, on peut comparer les prix réels du listing avec les prix normalisés sur les deux types de biens les plus prisés :
propriété entière :
-> prix réel :
summary(PaysBasque_listings$price [PaysBasque_listings$room_type=='Entire home/apt'])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.0 75.0 105.0 227.2 180.0 90350.0
-> prix normalisé :
summary(as.numeric(tableRoomPrice$`Entire home/apt`))
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 72.50 80.00 90.00 99.84 113.25 162.50
chambre privée :
-> prix réel :
summary(PaysBasque_listings$price [PaysBasque_listings$room_type=='Private room'])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15.00 50.00 67.00 88.27 95.00 3042.00
-> prix normalisé :
summary(as.numeric(tableRoomPrice$`Private room`))
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 50.00 58.25 67.00 67.37 73.50 93.00
On peut voir par rapport aux moyennes ci-dessus, quelles villes sortent du lot en étant au dessus, comme Tardets-Sorholus, Espelette ou Saint-Jean-de-Luz pour les chambres louées.
Nous avons voulu creuser la question des prix, en étudiant l’ensemble des 142 villes trouvées dans le corpus, toujours en partant sur la médiane des prix afin de distinguer les villes les plus chères et les moins chères.
Ce graphique est intéressant pour des responsables touristiques ou d’aménagement du territoire, car il permet de visualiser les contrastes au sein d’un même espace géographique.
Les appartements (propriétés privées ou en copropriété) sont-ils devenus des choix populaires parce qu’ils constituent l’option la moins chère proposée par l’hôte ? Pour répondre à cette question, nous avons calculé le top 10 des plus chers et le top 10 des moins chers des types de biens en fonction du prix médian pour une fréquence d’au moins 10 annonces différentes.
Clairement la réponse est non, les offres majoritaires sont dans l’ensemble bien au dessus de la moyenne des prix, pour passer des vacances à moindre coût dans le Pays basque, la recherche de logements typiques semble être une option de choix.
Finalement nous proposons de refermer cette partie par une nouvelle carte, présentant sous forme de points les annonces triées par seuil de prix (prix réel). On voit plus clairement que l’arrière pays recèle quelques propriétés entières à louer, d’où les prix plus élevés que sur la côte. Par contre, sur la côte, on trouve de tout en terme de logement dans toutes les gammes de prix.
Pour essayer de creuser ce qui pourrait nous aider à définir des tendances significatives sur ce territoire, nous avons tracé le graphique de corrélation entre les variables numériques du corpus. Les valeurs du graphique indiquent les p values de corrélation (calculées à l’aide de la fonction corr du package ggcorrplot). Pour rappel, une p value faible indique une indépendance des variable.
La corrélation la plus élevée concerne évidemment la relation entre la capacité maximum de personnes (accomodates) et le nombre de chambres proposés (0,86). Le graphe montre aussi que toutes les notes d’évaluation ont une forte corrélation entre elles avec une valeur pour presque tous supérieure à 0,5 (à cela rien d’étonnant).
En revanche, le prix a une très faible corrélation avec le nombre de chambres et de capacité autorisés dans un endroit. De même, le prix a également une corrélation très faible voire négative avec les notes d’évaluation, ce qui montre que le prix n’a pas d’effet sur les notes d’évaluation des clients. On pourrait émettre l’hypothèse que les scores d’évaluation dépendent d’autres facteurs et non du prix, par exemple que si un hôte traite bien ses clients, il peut obtenir un score d’évaluation élevé.
En nous inspirant d’autres études, notamment du travail du chercheur Christophe Benavent sur les données de Paris (cf.Airbnb à Paris - l’analyse des prix, nous avons essayé d’appliquer ses formules à nos données pour faire ressortir les dépendances de certaines variables en vue d’expliquer les prix pratiqués. Les résultats de la démarche sont présentés ci-après dans un tableau présentant le résultat des trois modélisations effectuées.
PaysBasque_listings$bedrooms[PaysBasque_listings$bedrooms>8]<-NA
PaysBasque_listings$bedrooms2<-as.factor(PaysBasque_listings$bedrooms)
PaysBasque_listings$room_type2<-PaysBasque_listings$room_type
PaysBasque_listings$room_type2[PaysBasque_listings$room_type=="Shared room"]<-NA
reg1<-lm(price~bedrooms+room_type2,data=PaysBasque_listings)
PaysBasque_listings$lprice<-log(PaysBasque_listings$price+1)
reg2<-lm(price~bedrooms+room_type2+bedrooms*room_type2,data=PaysBasque_listings)
reg3<-lm(lprice~bedrooms+room_type2,data=PaysBasque_listings)
stargazer(reg1,reg2,reg3,title="Résultats des régressions",
align=TRUE,digits=2,
type = "text",no.space=TRUE)
##
## Résultats des régressions
## ============================================================================================================
## Dependent variable:
## ----------------------------------------------------------------------------
## price lprice
## (1) (2) (3)
## ------------------------------------------------------------------------------------------------------------
## bedrooms 57.99*** 58.13*** 0.36***
## (9.69) (9.70) (0.005)
## room_type2Hotel room -25.99 99.27 0.44***
## (273.82) (1,073.11) (0.13)
## room_type2Private room -75.80 -27.41 0.005
## (100.11) (222.55) (0.05)
## bedrooms:room_type2Hotel room -114.68
## (951.03)
## bedrooms:room_type2Private room -41.78
## (171.66)
## Constant 120.64*** 120.33*** 4.13***
## (23.89) (23.92) (0.01)
## ------------------------------------------------------------------------------------------------------------
## Observations 11,333 11,333 11,333
## R2 0.003 0.003 0.36
## Adjusted R2 0.003 0.003 0.36
## Residual Std. Error 1,282.19 (df = 11329) 1,282.30 (df = 11327) 0.60 (df = 11329)
## F Statistic 12.56*** (df = 3; 11329) 7.55*** (df = 5; 11327) 2,156.54*** (df = 3; 11329)
## ============================================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Nous voyons clairement que la dernière régression a un meilleur R² par rapport aux modèles 1 et 2. Contrairement aux analyses de C Benavent sur Paris, seul le nombre de chambres semble avoir une influence sur les prix. Rien ne ressort sur l’influence du type de location, mis à part pour les chambres d’hôtel. On serait tenté de dire que ça semble normal, le prix étant nettement plus élevé dans une hôtellerie professionnelle, mais ce n’est pas évident d’aller plus loin dans l’interprétation.
Nous présentons dans cette sous-partie quelques analyses des textes issus des variables comportant du texte dans le corpus.
Le wordcloud suivant met en forme les mots de la variable
name c’est à dire le titre du bien. Nous avons choisi de
voir si il y a une différence entre les titres des biens type logement
entier ou chambre privée.
Wordcloud des mots des titres concernant le type “Logement entier”
Wordcloud des mots des titres concernant le type “Chambre privée”
On peut dire que les différences frappantes sont autour de termes plus chaleureux caractérisant les chambres à louer, liées probablement à plus d’intimité dans les rapports hôtes/clients.
Les mots des Descriptions / Logement entier
Le wordcloud suivant sur le champ description des
annonces donne plus d’information sur ce qui peut caractériser ces
dernières. On voit clairement les termes cuisine, terrasse, plage,
parking ou jardin, mis à part les termes triviaux comme appartement ou
space. A noter que des termes anglais sont aussi dans le wordcloud car
beaucoup de descriptions sont bilingues. Une analyse plus poussée sur
les langues pourrait être faite afin de séparer les langues.
Les mots des Descriptions / Chambre privée
Les mots de la description concernant les annonces de chambres privées semblent plus détaillée en information descriptives que dans le titre, mais pas un mot particulier ne sort (mis à part les plus triviaux). On retrouve terrasse, jardin, cuisine, et aussi petit (bien distinct par rapport au type appartement entier !).
Enfin il nous semble qu’une analyse textuelle de la liste d’équipements accompagnant chaque annonce serait intéressante, elle nécessite un peu de traitement, car elle est dans la base au format json.
Pour Airbnb, la liste des 10 équipements les plus recherchés par les client sont :
Nous pouvons voir ci-après si nous retrouvons ces termes dans
l’analyse textuelle de la colonne amenities.
Le graphe ci-après présente le top 20 des termes les plus fréquents dans la liste d’équipement proposée dans les annonces, on ne retrouve pas tout à fait la liste des essentiels :
Le wordcloud propose une vue pour facile des termes saillants, outre les éléments classiques, on trouve mountain view, sea view, ocean view, beach view et beach access, sun loungers… Nous sommes bien sur la côte !
Inside Airbnb propose aussi en téléchargement le listing des avis des clients, très riche en texte, qui pourrait être ajouté au listing des offres pour approfondir l’analyse des sentiments (non inclus dans cette étude).
Le corpus des offres Airbnb du Pays basque a pu donner beaucoup d’information pour tenter de qualifier l’offre touristique de ce territoire. Enormément d’informations et de croisement sont possibles. Les variables numériques, logiques et textuelles nombreuses permettent de triturer les données dans tous les sens, à l’infini.
On peut tirer déjà quelques conclusions sur le ou les profils des hôtes et des types de locations proposées dans le Pays basque qui jouit à la fois de ses atouts terre et mer, de lieux pittoresques chargés d’histoire et sa très bonne qualité de vie. Bien évidemment, d’autres analyses plus poussées pourraient nous aider à aller plus au fond des choses.
Il a fallu faire des choix sur ce qui était possible de faire dans le temps imparti. Mes choix se sont naturellement orientés sur mes thèmes de prédilection que sont la visualisation de données et le textmining. Donc pour ce qui concerne les analyses économétriques et topologiques, un recul et une expertise méthodologique m’ont manqué pour avancer sur cette partie.